当前 ， 人 类 对 各 类 计算 技术 的 需求 越 来 越 多 。 
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户 和 系统 之 间 的 合同 或 者 协议 , 用 以 确保 多 个 处 理 
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与 分 析 当 前 儿 种 典型 的 商 月 


存储 器 一 致 性 


2.1 存储 器 一 致 性 的 基本 概念 


共享 存储 系统 


需要 考虑 存储 器 一 致 必 
性 。 此 外 ， 存 储 器 一 致 性 模型 对 访 存 操作 有 
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器 在 以 
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的 是 使 主 存 中 数据 的 备份 保持 最 新 。 二 者 在 多 处 理 器 系统 
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EE 要 的 影响 。 


展 情况 。 
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储 器 一 致 性 模型 贯穿 于 并 行程 序 编写 与 系统 设计 的 每 一 个 细节 (包括 :处 理 器 、 互 连 网 络 、 
言 ) 当中 。 


在 实际 实现 中 ， 存 储 器 一 致 特 


FE 模 型 决定 了 程序 在 共享 存储 系统 中 执行 时 读 操作 的 返回 


值 。 直 观 地 说 ， 读 操作 应 该 返回 对 该 地 址 最 近 一 次 写 的 值 。 在 单 处 理 器 系统 中 ， 该 条 件 很 容 
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多 处 理 器 系统 中 ， 情 况 要 复杂 得 多 。 
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“最 近 一 次 ” 受 “ 程 序 序 ”的 约束 (也 就 是 ， 访 存 操作 在 程 


2.2 商业 处 理 器 中 的 存储 器 一 致 性 模型 
2.2.1 SPARC 处 理 器 的 一 致 性 模型 上 


2.2.1.1 基本 概念 


出 现 的 顺序 )。 但 在 


学 ! 


本 节 我 们 首先 介绍 一 下 SPARC 处 理 器 存储 一 致 模型 过 程 涉及 的 一 些 基本 概念 


1.， ， 访 存 事务 


访 存 事务 可 以 分 为 以 下 四 类 : 


1) “ 写 操 作 是 


处 


写 操作 完成 。 


2)” 读 操作 是 由 


的 写 修改 时 表示 读 操作 完成 。 


3) 


4) 


原子 操作 是 一 组 读 改 写 
存 事务 影响 内 存 的 状态 。 


刷新 操作 是 由 处 再 


SPARC-V9 中 的 原子 
器 发 出 的 请 求 。 用 来 保证 数据 空间 与 # 


里 器 发 起 的 写 请 求 。 当 写 操作 的 值 对 系统 中 所 有 处 理 器 可 见 时 表示 


的 读 请 求 。 当 读 操作 的 值 返回 并 且 不 能 被 其 他 任何 处 理 器 


的 操作 。 系 统 需 要 保证 在 读 写 原子 操作 之 间 没 有 其 他 的 访 
指令 包括 : LDSTUB、SWAP、CAS。 


同时 需要 注意 的 是 : MEMBAR 指令 并 非 访 存 事务 。 


2. ”程序 序 


程序 序 是 每 个 处 到 


MEMBAR 指令 可 以 用 来 约束 程序 序 。 


3. ”依赖 序 


器 的 一 个 全 序 关 系 ， 该 序 表 示 处 理 


器 逻辑 


昌 令 空间 的 一 致 。 


上 执行 指令 的 顺序 。 


指令 依赖 序 是 一 种 偏 序 关系 , 该 关系 表示 同一 处 理 器 的 两 条 指令 访问 相同 的 寄存 器 或 者 


内 存 地 址 时 的 顺序 。 
4. ”存储 序 


5.， MEMBAR 指令 


MEMBAR 指令 可 以 用 来 约束 单 
机 指令 流 的 序 。MEMBAR 之 前 的 读 写 操 


作 在 程序 序 上 优先 于 
读 写 操作 。 此 外 ， 


处 理 


MEMBAR 之 后 的 
原子 操作 也 受到 


MEMBAR 指令 的 约束 。MEMBAR 指令 


的 分 类 如 表 1 所 示 。 


表 1， MEMBAR 指令 


MEMBAR 汇编 指令 


MEMBAR #LoadLoad 


MEMBAR #StoreLoad 
MEMBAR #LoadStore 


MEMBAR #StoreStore 


在 内 存 端 执行 的 访 存 事务 的 顺序 ， 所 有 的 访 存 事务 上 共有 全 局 的 存储 序 。 


对 存储 序 (<m) 的 约束 
Load <m Load 
Store <m Load 
Load <m Store 
Store <m Store 
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2.2.1.2 RMO! 存 储 一 致 模型 
1. 值 的 原子 性 
高 速 绥 存 同一 性 的 粒度 是 以 8 字 节 为 单位 , 8 字 节 及 以 下 的 单个 内 存 事务 一 定 是 原子 执 
行 的 。 
2. 写 原子 性 

写 操作 具有 全 局 序 。 然 而 并 不 表示 该 序 可 见 ， 同 时 也 不 表示 SPARC 存储 一 致 性 需要 中 
心 控制 机 制 。 
3. 原子 访 存 事务 

原子 访 存 事务 (如 : SWAP、 LDSTUB 与 CAS) 中 的 读 操 作 与 写 操 作 原 子 执行 ， 任 何 
的 访 存 事务 不 能 将 其 隔断 。 
4. 存储 序 的 约束 

1) 当 指 令 与 更 早 的 读 操作 存在 依赖 序 时 , RMO 存储 一 致 保证 他 们 之 间 有 序 执行 ,然而 ， 

与 写 操作 之 间 的 数据 依赖 可 能 因为 写 操作 的 完成 被 推迟 ， 他 们 之 间 的 顺序 不 能 保证 
全 局 一 致 〈 本 地 一 定 是 按 序 的 )。 

2) 用 MEMBAR 指令 约束 访 存 指令 之 间 的 序 。 

3) 同一 处 理 器 对 相同 地 址 的 写 操作 保证 程序 序 。 
5. 访 存 事 务 的 值 

Store 操作 的 值 由 执行 的 处 理 器 决定 。 读 操作 的 值 ， 取 决 于 对 该 地 址 最 近 一 次 的 写 。 
最 近 一 次 , 具体 是 指 存储 序 上 对 该 地 址 最 后 一 次 写 操作 写 入 的 值 , 抑或 是 本 地 处 理 器 写 缓存 
中 的 写 操作 的 值 。 
2.2.1.3 PSO’ 存 储 一 致 模型 

PSO 存储 一 致 模型 是 在 RMO 存储 一 致 模型 的 基础 上 增加 了 对 访 存 操作 的 约束 , 该 约束 
等 效 于 在 读 操 作 之 后 ， 增 加 两 条 隐 式 的 同步 指令 (MEMBAR #LoadLoad |#LoadStore)。 
换 句 话说，PSO 存储 一 致 模型 中 增加 约束 不 允许 以 下 两 种 操作 : (1) 读 操作 超越 更 早 的 读 操 
作 ; (2) 写 操作 超越 更 早 的 读 操 作 。 


2.2.1.4 TSO: 存储 一 致 模型 


TSO 存储 一 致 模型 是 在 PSO 存储 一 致 模型 的 基础 上 再 次 增加 对 访 存 操作 的 约束 ， 该 约 
束 等 效 于 在 写 操作 之 后 ， 增 加 两 条 隐 式 同步 指令 (MEMBAR #StoreStore)。 换 句 话说 ， 
TSO 存储 一 致 模型 增加 了 对 写 与 写 之 间 的 约束 ， 不 允许 写 操作 超越 更 早 的 写 操作 。 


2.2.2 Intel 处 理 器 的 一 致 性 四 
2.2.2.1 2001 年 x86 体系 结构 的 存储 器 一 致 性 模型 


根据 2001 年 英特尔 发 布 的 软件 开发 者 手册 第 三 卷 一 一 系统 编程 指导 , 单 处 理 器 系统 中 ， 
对 序 关 系 有 以 下 约束 : 


1) 读 操 作 允 许 以 任意 顺序 投机 执行 。 


1 Relaxed memory order， 放 松 的 访 存 序 
2 Partial Store Order， 写 偏 序 
3 Total Store Order， 写 全 局 序 


二 | 
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在 写 缓存 中 的 写 操作 彻底 完成 之 前 ， 后 续 的 读 操 作 可 以 提前 执行 。 

对 内 存 的 写 操作 都 是 遵照 程序 序 执行 的 ， 除 了 以 下 两 种 情况 : (1) CLFLUSH 指令 引起 的 
写 操作 、(2) 非 暂 时 的 写 操作 (例如 指令 : MOVNTI、MOVNTQ、MOVNTDQ、MOVNTIPS、 
MOVNTPD )。 

写 操作 可 以 缓存 在 写 绥 存 中 。 
写 操作 不 能 投机 执行 ， 写 操作 必须 真正 的 提交 以 后 才能 被 实施 《例如 : 写 入 写 缓存 )。 
处 理 器 发 出 的 读 操 作 可 以 提前 读 取 同 一 处 理 器 写 缓存 中 的 数据 。 

普通 的 访 存 操作 不 能 超越 读 写 (IO) 指令 、 具 有 锁 前 绥 的 指令 、 顺 序 指令 。 

读 操 作 不 能 超越 LFENCE 与 MFENCE 指令 。 

写 操作 不 能 超越 SFENCE 指令 。 

而 多 处 理 器 系统 中 的 约束 原则 如 下 : 

单独 的 处 理 器 遵守 单 处 理 器 系统 的 所 有 约束 。 

来 自 同 一 处 理 器 的 所 有 写 操作 ， 被 所 有 处 理 器 看 到 的 顺序 是 一 致 的 。 


在 总 线 上 执行 的 写 操作 全 局 可 见 ， 但 是 来 自 不 同 处 理 器 的 写 操作 之 间 没 有 默认 顺序 约 
定 。 


2.2.2.2 2008 年 x86 体系 结构 的 存储 器 一 致 性 模型 


根据 2008 年 英特尔 发 布 的 软件 开发 者 手册 第 三 卷 一 一 系统 编程 指导 , 单 处 理 器 系统 中 ， 


对 序 关 系 有 以 下 约束 : 


1) 
2) 
3) 


4 
5) 
6) 
7) 


1) 
2) 
3) 
4 
5) 
6) 


读 操 作 不 能 与 更 早 的 读 操 作乱 序 。. 

写 操作 不 能 与 更 早 的 读 操作 乱 序 。 

对 内 存 的 写 操作 都 是 遵照 程序 序 执行 的 ， 除 了 以 下 两 种 情况 : (1) CLFLUSH 指令 引起 
的 写 操作 、(2) 非 暂 时 的 写 操作 《例如 指令 : MOVNTI、MOVNTQ、MOVNTDQ、 
MOVNTPS、MOVNTPD )。 

读 操 作 在 与 更 早 的 写 操作 之 间 没 有 数据 依赖 时 ， 读 操作 可 以 超越 写 操作 。 

访 存 操作 不 能 超越 读 写 指 令 、 具 有 锁 前 级 的 指令 、 顺 序 指令 。 

读 操 作 不 能 超越 LFENCE 与 MFENCE 指令 。 

写 操作 不 能 超越 SFENCE 与 MFENCE 指令 。 

多 处 理 器 系统 中 的 约束 原则 如 下 : 

单独 的 处 理 器 遵守 单 处 理 器 系统 的 所 有 约束 。 

来 自 同 一 处 理 器 的 所 有 写 操作 ， 被 所 有 处 理 器 看 到 的 顺序 是 一 致 的 。 

不 同 处 理 器 之 间 的 写 操作 没有 默认 顺序 约定 。 

访 存 操作 之 间 遵 守 因果 序 。 

对 同一 地 址 的 写 操 作 具 有 全 局 序 。 

带 有 锁 前 级 的 指令 具有 全 局 序 。 


2.2.2.3 2010 年 x86 体系 结构 的 存储 器 一 致 性 模型 


根据 2010 年 英特尔 发 布 的 软件 开发 者 手册 第 三 卷 一 一 系统 编程 指导 ， 


单 处 理 器 系统 中 ， 


对 序 关 系 有 以 下 约束 : 


1) 
2) 
3) 


读 操 作 不 能 与 更 早 的 读 操 作乱 序 。. 
写 操作 不 能 与 更 早 的 读 操作 乱 序 。 
对 内 存 的 写 操作 不 能 超越 更 早 写 操作 ， 除 了 以 下 三 种 情况 : 
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一 CLFLUSH 指令 引起 的 写 操作 
一 非 暂 时 的 写 操作 〔〈 例 如 指令 : MOVNTI、MOVNTQ、MOVNTDQ、MOVNTIPS、 
MOVNTPD ) 。 

- String 操作 (参考 上 述 手 册 8.2.4.1 小 节 ) 

4) ” 读 操 作 在 与 更 早 的 写 操 作 之 间 没 有 数据 依赖 时 ， 读 操作 可 以 超越 写 操 作 。 

5) ” 访 存 操作 不 能 超越 读 写 指令 、 具 有 锁 前 级 的 指令 、 顺 序 指令 。 

6) ” 读 操 作 不 能 超越 LFENCE 与 MFENCE 指令 。 

7) ” 写 操作 不 能 超越 LFENCE、SFENCE 与 MFENCE 指令 。 

8) LEFENCE 指令 不 能 超越 更 早 的 读 操作 。 

9) ”SFENCE 指令 不 能 超越 更 早 的 写 操作 。 

10) MFENCE 指令 不 能 超 远 更 早 的 读 写 操作 。 


多 处 理 器 系统 中 的 约束 原则 如 下 : 


1) ”单独 的 处 理 器 遵守 单 处 理 器 系统 的 所 有 约束 。 

2) “来自 同 一 处 理 器 的 所 有 写 操 作 ， 被 所 有 处 理 器 看 到 的 顺序 是 一 致 的 。 

3) ”不同 处 理 器 之 间 的 写 操作 没有 上 默认 顺序 约定 。 

4) ” 访 存 操作 之 间 遵 守 因 果 序 。 

5) 来自 不 同 处 理 器 的 两 个 写 操作 以 相同 的 顺序 被 其 它 处 理 器 看 到 , 然而 执行 该 指令 的 处 理 
器 允许 看 到 不 同 的 顺序 。 

6) ” 带 有 锁 前 级 的 指令 具有 全 局 序 。 


2.2.2.4 对 x86 体系 结构 存储 一 致 模型 的 演变 分 析 


通过 上 述 内 容 我 们 发 现 ，x86 体系 结构 存储 一 致 模型 的 演变 主要 集中 在 了 写 原 子 性 上 ， 
也 就 是 说 ， 写 操作 是 否 上 共有 全 局 序 。 


表 2. X86 软件 开发 手册 对 写 原子 性 的 描述 

处 理 器 发 出 的 读 操 作 可 以 提前 读 取 同一 处 理 器 写 缓存 中 的 数据 。 

在 总 线 上 执行 的 写 操作 全 局 可 见 ， 但 是 来 自 不 同 处 理 器 的 写 操作 之 间 没 
有 默认 顺序 约定 。 

访 存 操作 之 间 遵 守 因 果 序 。 

对 同一 地 址 的 写 操 作 具 有 全 局 序 。 

访 存 操作 之 间 遵 守 因 果 序 。 

来 自 不 同 处 理 器 的 两 个 写 操作 以 相同 的 顺序 被 其 它 处 理 器 看 到 ， 然 而 执 
行 该 指令 的 处 理 器 允许 看 到 不 同 的 顺序 。 如 四 个 处 理 器 A、B、C、D， 
处 理 器 A 与 B 分 别 执行 W1 与 W2, 处 理 器 C 与 D 必须 以 相同 的 顺序 看 
到 W1 与 W2(W1 优先 于 W2， 或 者 相反 )， 然 而 ， 人 允许 处 理 器 A 与 BB 
以 不 同 的 顺序 看 到 Wi1 与 W2 的 执行 。 


在 对 比 x86 体系 结构 的 写 原子 性 之 前 , 首先 我 们 对 比 三 个 概念 : 写 原子 性 、 强 写 原子 性 、 
弱 写 原子 性 。 
1) 写 原子 性 ,是 指 写 操作 原子 完成 ， 隐 合 了 所 有 处 理 器 的 写 操作 具有 全 局 序 ( 它 保证 
一 个 处 理 器 在 该 处 理 器 读 到 写 操作 的 新 值 以 后 及 在 该 值 对 所 有 处 理 器 可 见 之 前 均 

不 能 执行 访 存 操作 ); 
2) ” 强 写 原子 性 ， 存 储 一 致 模型 中 默认 的 写 原子 性 是 指 强 的 写 原子 性 ; 


3) 


x86 软件 开发 手册 中 对 写 原 子 性 的 描述 ， 


我 们 发 现 
1) 


2) 


3) 


因此 


写 原子 性 ， 
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弱 写 原子 性 ,在 不 影响 正确 性 的 前 提 下 ， 人 们 规定 ， 在 写 操 作 全 局 可 见 之 前 ,执行 
写 操作 的 处 理 咒 读 取 了 新 值 以 后 , 可 以 继续 执行 访 存 操 作 , 我 们 称 之 为 弱 写 原子 性 。 


表 3， 写 原子 性 举例 
初始 状态 


对 比如 表格 2 所 述 的 以 上 三 个 


2001 年 的 描述 中 明确 表达 出 了 


X86 体系 结构 的 存储 一 致 模型 | 网 史 和 


具有 弱 写 原子 性 的 特征 , 具体 表 
现 为 , 同一 处 理 器 的 读 操 作 可 以 


提前 读 取 写 操作 的 值 , 在 到 达 总 
线 以 后 , 可 以 保证 写 操作 的 原子 
执行 。 


写 原子 性 禁 
止 的 结果 


(R1, R2, R3, R4) = (1, 0, 1, 0) 


2008 年 的 描述 中 ， 仅 保证 了 高 速 缓存 同一 性 《也 就 是 ， 对 相同 地 址 的 写 操作 保证 


全 局 序 )。 并 不 保证 写 原 子 性 。 如 表格 3 所 示 ， 在 保证 写 原子 性 且 读 操作 不 能 乱 序 


的 处 理 器 中 ,结果 (R1, R2, R3, R4) = (1, 0, 1, 0) 是 被 禁止 的 。 该 年 的 描述 中 ,禁止 读 


操作 乱 序 ， 但 是 允许 该 类 结果 的 出 现 。 


2010 年 的 描述 ， 再 次 保证 了 弱 的 写 原子 性 。 有 具体 表现 为 ， 对 其 他 处 理 来 说 写 操作 


~ 


2.2.3 Power 处 理 器 的 一 致 性 
在 Power 体系 结构 的 手册 Do00 中 ， 对 Power 存储 一 致 模型 的 描述 概括 性 较 差 。 为 了 便 


一 致 模型 


的 总 结 "2 。 


具有 全 局 序 ， 而 执行 写 操作 的 处 理 器 可 以 提前 读 取 写 操作 的 值 。 


综 上 所 述 ， 我 们 发 现 2010 年 及 其 以 后 的 X86 体系 结构 存储 一 致 模型 ， 具 有 弱 的 
具有 与 SPARC 中 TSO 存储 一 致 模型 极为 相似 的 语义 "9 。 


里 解 ， 本 文 不 使 用 官方 手册 的 说 明 而 采用 丹尼尔 . 索 林 (Daniel J. Sorin) 等 对 Power 存储 


索 林 等 首先 定义 了 一 种 基本 的 放松 存储 一 致 模型 (简称 XC)。 该 存储 一 致 模型 满足 以 


下 约束 : 
1) 
2) 
3) 


4) 
5) 


相同 地 址 的 读 写 操作 之 间 满 足 程序 序 。 


在 写 操 作 彻底 完成 之 前 ， 同 一 处 理 器 后 续 的 读 操 作 允 许 提 前 读 取 本 地 写 操作 的 值 。 


不 同 地址 的 读 写 操作 可 以 乱 序 , 原子 的 读 改写 指令 与 访问 不 同 地 址 的 读 或 写 指令 可 


以 乱 序 。 
FENCE 指令 不 允许 与 读 写 操作 乱 序 。 
所 有 处 理 器 的 写 操 作 具 有 全 局 序 。 


Power 存储 一 致 模型 与 基本 的 放松 存储 一 致 模型 相 比 ， 有 以 下 特点 : 
Store 是 相对 于 其 他 处 理 器 而 非 相 对 于 内 存 而 言 〈《 也 就 是 说 Power 的 写 操作 没有 


1) 


2) 


全 局 序 , 不 保证 写 原子 性 )。 例如: 处 到 


行 之 前 的 旧 值 。 


伏 C 


1 对 地 址 A 进行 的 写 操作 S1 相对 于 处 


故 - 冯 


理 器 C2 执行 完成 (C2 不 能 读 到 S1 写 之 前 的 值 )， 但 处 理 器 C3 依旧 能 读 到 S1 执 


FENCE 操作 可 以 累加 。 假 设 处 理 器 C2 执行 访 存 操作 X1、X2、X3... (用 集合 X 
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表示 )， 然 后 执行 FENCE 指令 ， 再 执行 访 存 操作 Y1、Y2、Y3 (用 集合 Y 表示 )。 
Power 对 累加 做 如 下 定义 : (1) 其 他 处 理 器 (如 C1) 增加 到 集合 X 的 操作 ， 优 先 


于 C2 的 FENCE 


指令 执行 ，(2) 其 他 处 理 器 ( 


如 C2) 增加 到 集合 Y 的 操作 ， 被 约 


束 到 FENCE 指令 之 后 执行 ，(3) 条 件 (1) 可 以 累加 ， 优 先 于 处 理 器 C1 的 一 定 优先 
指令 ， 同 理 条 件 (2) 也 可 以 累加 。 


3) ”Power 存储 一 致 模型 提供 了 三 类 FENCE 指令 : 


ll 


于 C2 的 FENCE 


一 HWSYNC 指令 (全称 : heavy weight synchronization， 重 量 级 同步 )， 和 集合 义 中 所 有 


的 操作 优先 于 集合 Y 的 所 有 操作 ， 人 允许 累加 。 


- LWSYNC 指令 ( 


HWSYNC 的 基础 上 ， 放 松 了 对 集合 X 


样 允许 累加 。 


一 ISYNC 指令 (全称: 


全 称 : light weight synchronization， 轻 量 级 同步 )，LWSYNC 在 
的 写 操作 与 集合 Y 中 的 读 操作 的 约束 ， 同 


Instruction synchronization， 指 令 同 步 )， 约 束 来 自 同 一 处 理 器 


的 两 条 读 操作 ， 不 允许 累加 ， 同 时 该 指令 仅 约束 指令 访 存 操作 《〈 不 约束 数据 访 存 操 


作 )。 


4) ”Power 存储 一 致 模型 除了 FENCE 之 外 ， 提 供 
速 缓存 (L1)， 如 果 后 续 的 访 存 操作 需要 用 一 级 缓存 的 结果 计算 访 存 地 址 ， 且 后 续 


指令 与 该 指令 有 依赖 关系 ， 则 不 能 乱 序 执行 。 
2.2.4 几 种 商用 处 理 器 的 存储 器 一 致 性 模型 的 对 比 


了 其 他 的 顺序 约束 。 对 读 操作 一 级 高 


直 以 来 ， 大 家 对 存储 一 致 模型 的 归 类 都 是 根据 其 


松 ，(2) 对 写 原子 性 的 放松 四 51。 


关于 程序 序 ， 对 来 自 


读 后 读 、 写 后 写 、 写 后 读 


只 有 不 同 的 约束 。 


关于 写 原 子 性 ,不 同上 


两 个 重要 的 特征 : (1) 对 程序 序 的 放 


同一 处 理 器 不 同 访 存 地 址 的 操作 ， 不 同 的 存储 一 致 模型 对 读 后 写 、 


到 该 值 ( 即 : 一 个 写 操作 产生 的 写 无 效 消息 或 写 更 新 消 , 


作 是 否 允 许 返 回 写 操作 的 


值 )》 有 不 同 的 约束 。 


的 存储 一 致 模型 对 写 操作 在 全 局 可 见 之 前 , 是 否 允 许 读 操作 提前 得 


昌 到 达 所 有 高 速 缓存 备份 之 前 ， 读 操 


根据 上 述 两 个 特征 ， 我 们 用 表 4 总 结 SPARC、X86、POWER 存储 一 致 模型 。 


表 4. 不 同 的 存储 一 致 模型 


提前 读 取 


提前 读 


存储 一 致 模型 


其 它 处 理 


器 写 操作 


取 本 地 正确 性 保证 
写 操作 


MEMBAR 指令 


STBAR 指令 、i 


读 改 写 指 令 


顺序 指令 、 锁 前 级 指令 


SYNC 指令 
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3 ”高 速 缓存 同一 性 
3.1 高 速 缓存 同一 性 的 基本 概念 


在 共享 存储 的 多 核 处 理 器 系统 中 ， 高 速 
缓存 结构 可 以 将 共享 存储 空间 中 的 数据 缓存 
在 本 地 ， 加 速 各 处 理 器 获取 数据 的 过 程 。 由 
于 每 个 处 理 器 看 到 的 存储 器 视图 都 是 通过 本 
地 的 高 速 缓存 得 到 的 ， 因 此 对 于 同一 个 存储 
位 置 的 数据 而 言 ， 不 同 的 处 理 器 可 能 会 获取 
到 不 同 的 数据 值 。 如 图 1 所 示 鸣 ， 三 个 带 有 
高 速 缓存 的 处 理 器 通过 总 线形 式 连接 到 主 
存 ， 高 速 缓存 及 主 存 相 关 操作 按照 图 中 1~5 
的 顺序 执行 。 在 处 理 器 P3 将 其 缓存 中 的 u 值 
5 改 成 7 之 后 ， 该 缓存 若是 直 写 式 ， 则 主 
存 中 相应 位 置 的 数据 也 会 更 新 。 但 是 ， 操 作 4 读 取 依然 是 u 的 旧 值 5， 而 非 新 值 7。 


人 局 多 核 处 理 器 中 的 高 速 缓存 同一 性 问题 是 普遍 存在 的 。 在 多 核 处 理 器 设计 过 程 中 , 必须 引 
CN 入 缓存 同一 性 维护 机 制 , 保证 多 个 处 理 器 对 主 存 中 同一 位 置 的 读 取 操 作 总 能 获得 最 新 号 入 的 
所 数据 值 。 这 也 是 制约 多 核 处 理 器 性 能 提升 的 一 大 瓶颈 。 


实际 上 ， 高 速 缓存 同一 性 协议 的 维护 需要 保证 两 点 505。 一 是 写 操作 的 传播 : 某 个 处 理 
开 器 的 写 操作 对 于 其 他 任意 处 理 器 都 是 可 见 的 ; 二 是 写 操作 的 串 行 化 : 不 同 处 理 器 对 同一 存储 
一 位 置 的 写 操作 , 在 所 有 处 理 器 看 来 都 是 按照 同样 的 顺序 执行 的 ， 处 理 器 在 读 取 存 储 器 时 总 能 
所 获取 最 新 写 入 的 值 。 


高 速 缓存 同一 性 协议 中 广泛 采用 的 有 两 类 协议 一 一 基于 目录 的 协议 和 基于 侦 听 的 协 
议 05。 基 于 目录 的 协议 对 于 共享 存储 其 中 的 数据 块 设置 目录 项 来 跟踪 、 记 录 其 状态 信息 ， 
© 从 而 知道 哪些 节点 应 该 对 请 求 做 出 何 种 操作 。 目 录 协 议 的 实现 方案 较 多 , 根据 目录 存储 方法 
.= 的 不 同 可 以 分 为 集中 式 目 录 协 议 ( 如 Tang)、 分 布 式 目录 协议 (如 Censiert) 等 。 集 中 式 有 
录 协 议 是 指 在 主 存 中 只 用 一 个 目录 来 标识 数据 在 各 处 理 器 缓存 中 的 存储 情况 。 集 中 式 目录 也 
有 几 种 实现 方案 ,全 映射 目录 方案 就 是 一 种 典型 的 集中 式 目录 协议 。 分 布 式 目录 协议 又 称 链 
表 式 目录 协议 。 这 种 协议 是 将 目录 分 散 到 各 处 理 器 的 缓存 中 , 并 用 链表 将 有 关 的 缓存 连接 在 
一 起 。 每 个 主 存 中 的 数据 块 建立 一 个 数据 链表 ， 每 个 链表 只 包含 拥有 该 数据 块 副本 的 缓存 。 
基于 侦 听 的 协议 是 另 一 种 多 核 处 理 器 中 维护 高 速 缓存 同一 性 的 常用 方法 。 具 体 来 说 , 缓存 控 
制 器 通过 共享 总 线 事务 来 更 新 本 地 数据 的 一 致 性 状态 。 这 里 ,高速 缓 存 同一 性 的 维护 可 以 看 
作 是 一 组 有 限 状 态 机 的 状态 变迁 。 挂 接 在 总 线 上 的 节点 接收 到 同一 性 请 求 后 , 会 根据 消息 类 
型 和 自身 状态 更 新 数据 状态 并 向 请 求 者 做 出 响应 。 避 免 出 现 缓存 内 容 不 一 致 的 方案 有 两 种 ， 
分 别 为 “写作 废 ”与 “ 写 更 新 "“ 写 作废 ”是 将 所 有 远程 拥有 相同 数据 块 副本 的 缓存 中 对 应 
内 容 “作废 ” 使 有 效 数据 只 有 一 个 ， 典 型 的 协议 有 MSI 协议 和 MESI 协议 等 ;“ 写 更 新 ” 
是 将 存 有 相同 数据 块 副本 的 缓存 中 对 应 内 容 “ 更 新 ” 可 能 出 现 多 个 有 效 数 据 。 典 型 的 协议 
有 Dragon 等 。 不 过 ,“ 写 更 新 ”方案 需要 将 更 新 内 容 发 送 到 所 有 须 更 新 的 缓存 中 ， 会 大 大 增 
加 总 线 的 负担 ， 一 般 使 用 得 不 多 。 


下 面 ， 我 们 重点 介绍 几 种 商业 处 理 器 中 采用 的 高 速 缓存 同一 性 相关 技术 。 
3.2 商用 多 核 处 理 器 中 的 高 速 缓存 同一 性 协议 


图 1， 高 速 缓存 同一 性 问题 示意 图 
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频率 已 经 较 高 ,但 


信息 技术 快报 
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和 FSB 带宽 ， 很 难 带 


QPI 实际 的 官方 名 称 是 
Common System Interface 
面 ， 是 一 种 
串 行 式 高 速 点 对 点 连接 技术 ， 用 来 


即 公 共 系 统 史 


(CSI)， 
包 传输 的 


实现 芯片 之 间 的 直接 互 连 ， 而 非 通 
过 FSB 连接 到 北桥 ， 并且， 其 数据 
传输 速率 相 较 于 FSB 有 大 幅 提 升 。 


英特尔 希望 在 多 核 处 理 器 时 代 


图 呈 7 。 医 [: 


， QPI 不 仅 用 于 


处 于 优势 地 位 ， 首 要 的 任务 就 是 要 
解决 系统 资源 的 分 配 难题 ， 充 分 发 
挥 多 核 的 优势 ， 这 也 是 英特尔 推出 
QPI 总 线 技术 的 最 终 目 的 。QPI 技术 已 推出 了 1.0 和 1.1 月 
F 处 理 器 与 IJOH (IO Hub ) 的 互 连 (内 存 控制 器 已 集成 于 处 理 器 中 )， 


同时 也 用 于 处 理 器 之 间 的 直接 互 连 。 


级 单独 部 件 出 现 。 


QPI 不 仅 应 用 于 处 理 器 2 
Intel 处 理 器 内 部 ，QPI 也 名 上 


间 的 交互 ， 在 
月 于 最 末 级 缓存 


(Last Level Cache, LLC) (通常 是 L3) 的 组 
存 代 理 (CA, Caching Agent) 和 宿主 代理 (HA,， 


Home Agent) 之 间 的 通信 。 


如 果 目 的 HA 不 


交互 。 


QPI 的 接口 包括 


在 本 处 理 器 中 ? 则 也 需 而 要 通过 


物理 层 、 链 路 


寸 处 理 器 间 的 QPI 


、 路 


器 与 芯片 组 之 间 的 性 能 


瓶颈 仍 未 改变 。 


来 明显 的 性 能 提升 。2008 年 后 
新 的 互 连 设 计 方案 一 一 QPI (QuickPath Interconnect) 互 连 技术 m9]。 


图 2. 


图 中 的 IOH 现在 也 常 集成 至 
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由 于 FSB (front-side bus， 前端 总 线 ) 的 自身 技术 特点 ， 英 特 尔 公司 意识 到 ， 虽 然 FSB 
单纯 通过 提高 处 理 器 的 外 频 


英特尔 QuickPath 互 连 


设备 1 


协议 处 理 层 
| 


传输 层 
1 


Ml 


层 、 传 输 层 和 协议 层 等 多 个 组 成 部 
的 组 成 结构 见 图 3 。 


其 中 ，QPI 协议 层 


用 于 保证 


Snoop ( 
贞 听 ) 两 种 26。 


心 


在 QPI 1.0 版 本 中 ，Home Snoop 的 
点 发 送 请 求 ，(2) 宿主 利用 自己 的 目录 结构 选择 可 能 
(3) 接收 到 侦 听 请 求 的 节点 会 给 宿主 


分 ， 详 细 


制订 了 一 系列 规则 ， 

:分布 式 共享 存储 系统 的 缓存 同一 
性 。 和 常见 的 QPI 缓存 同一 性 
宿主 侦 听 ) 和 Source Snoop 〈 数 据 源 
4 为 QPI 支持 的 缓存 同一 
性 协议 的 Home Snoop 模式 示意 图 。 


协议 分 为 Home 


Intel QPI 技术 体系 结构 示意 图 
2 是 QPI 的 体系 


朋 ， 英 特 尔 正 式 发 布 了 替代 FSB 技术 的 


DRAM SN 加 人 DRAM 


[Pcle | ED 回 


结构 示意 


I 处 理 嚣 内部， 不 再 作为 板 


设备 2 


协议 处 理 层 
I 


传输 层 
1 


路 由 层 


| 
链接 层 


图 3，QPI 接 


人体 执行 


节点 一 个 反馈 ， 


并 将 数据 直接 传送 给 


Ee 图 
忆 依 


步骤 可 以 分 为 四 步 中 "1: (1) 请 求 者 向 宿主 节 
有 主 存 中 数据 块 副 本 的 节点 ， 发 送 侦 


请 求 者 ， 


商用 多 核 处 理 器 中 的 存储 器 一 致 性 模型 与 高 速 缓存 同一 性 | 


(4) 宿 3 
者 ， 并 告知 整个 Home Snoop 过 程 结束 。 
说 ， 它 是 一 种 基于 目录 的 高 速 绥 存 同 一 怕 


Snoop 协议 并 不 强制 使 用 目录 结构 。 


P1 是 提出 请 求 的 缓存 代理 


P2 和 P3 是 对 等 缓存 代理 
P4 是 当前 行 的 宿主 代理 


标记 : 


先决 条 件 : P3 存 有 在 M，E 或 F 状 态 下 当前 行 
的 拷贝 
步骤 1 二 
P1 请 求 由 宿主 代理 P4 处 理 器 2 
管理 的 数据 (注意 : CP2) 


P3 拥 有 该 行 的 一 个 找 
贝 ) 。 


处 理 器 4 
CP4) 


处 理 器 3 
CP3) 


步骤 3 

P3 响 应 探寻 请 求 ， 指 
出 P4 已 向 P1 发 送 数 
据 ， 并 向 P1 返 回 数据 


处 理 器 3 


步骤 4 
P4 完 成 整个 传输 。 


处 理 器 3 


P4 (宿主 代理 ) 检验 | 处 理 器 1 处 理 器 2 
目录 并 将 狭 尘 谱 求 仅 CP2) 
发 给 P3. 
处 理 器 3 处 理 器 4 
CP3) CP4) 
图 4. QPI 高 速 缓存 同一 性 
图 5 为 另 一 种 模式 Source Snoop 的 示意 图 。 


在 QPI 1.0 版 本 中 ，Source Snoop 的 具 
体 执行 步骤 可 以 分 为 三 步 n9，(D 某 个 处 理 
器 向 宿主 节点 发 送 请 求 ， 并 同时 向 其 他 所 有 
节点 发 送 侦 听 要 求 ，(2) 接收 到 侦 听 要 求 的 
节点 会 给 宿主 节点 一 个 反馈 ， 拥有 主 存 中 数 
据 块 副本 的 节点 还 会 直接 将 数据 传送 给 请 
求 者 ，(3) 宿主 节点 告知 请 求 者 整个 Source 
Snoop 过 程 结束 。 


Home Snoop 模式 一 般 用 于 获得 更 好 的 
伸缩 性 ， 常 用 于 较 大 型 的 多 处 理 器 系统 互 
连 。 通 过 Home Snoop 模式 ， 请 求 者 可 以 通 
过 请 求 宿 主 节点 发 送 侦 听 要 求 ， 满 足 条 件 的 
节点 才 会 收 到 侦 听 要 求 并 回应 ， 避 免 了 
的 直接 式 的 回应 ， 大 大 
降低 了 互 连 中 的 流量 和 带宽 压力 。Source 
Snoop 模式 则 较 适 用 于 较 小 型 的 多 处 理 器 系 
统 互 连 。 互 连 中 的 节点 较 少 时 ， 使 用 Source 
Snoop 模式 与 Home Snoop 模式 在 互 连 流量 
方面 并 不 会 有 很 大 的 差距 , 但 是 前 者 由 于 不 
用 等 竺 宿主 节点 将 侦 听 要 求 发 送 给 其 他 
点 ， 在 接收 回应 的 时 延 方 面 有 很 大 优势 。 


瑟 


加 | 


Source Snoop 模式 


< 
Wh 


节 


处 理 器 1 


办 议 


节点 检查 数据 是 否 已 经 由 其 他 节点 传送 给 请 求 者， 和 否则， 将 直接 把 数据 传送 给 请 求 
于 Home Snoop 模式 使 用 到 了 


协议。 值得 注意 的 是 ,在 QPI 1.1 版 本 中 ，Home 


目录 结构 ， 准 确 的 


处 理 器 2 
(P2) 
处 理 器 4 
(CP4) 
处 理 器 2 
CP2) 


处 理 器 4 
(CP4) 


QBSD 


CP1) 


CP3) 


FE 协议 的 Home Snoop 模式 


标记 : P1 是 提出 请 求 的 缓存 代理 
P2 和 P3 是 对 等 缓存 代理 
P4 是 当前 行 的 宿主 代理 
先决 条 件 ， P3 存 有 在 M，E 或 F 状 态 下 当前 行 
的 拷贝 
步骤 1. 性 
P1 请 求 由 宿主 代理 P4 处 理 器 2 
管理 的 数据 (注意 : (P2) 
P3 拥 有 该 行 的 一 个 找 
贝 ) 。 
处 理 器 3 处 理 器 4 
(P3) (P4) 
步骤 2. 
P2 和 P3 响 应 P4 的 探寻 | 处 理 器 1 处 理 器 2 
请 求 ，P3 向 Pl 提供 数 | (P1) (P2) 
据 . 
处 理 器 3 处 理 器 4 
(P3) (P4) 
步骤 
p4 完 成 整个 传输 。 。 | 处 理 器 1 处 理 器 2 
(P1) (P2) 


图 5. 


处 理 器 3 
(P3) 


QPI 和 访 速 缓存 同一 怕 


处 理 器 4 
(P4) 


FE 协 议 的 


Source Snoop 模式 


昌 的 是 基于 经 典 的 高 速 缓存 同一 必 


QPI 采 月 


协议 一 一 MESI 协议 了 
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于 发 的 MESIF 协议 中 ,该 
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协议 主要 用 于 解决 CC-NUMA“ 处 到 


信息 技术 快报 Vol.11 No.1 
Information Technology Letter Jan. 2013 
器 架构 的 缓存 同一 性 问题 。 需 要 说 明 的 是 ， 本 文 提 及 的 


CC-NUMA 结构 , 特 指 通过 Intel QPI 技术 或 者 AMD HT 技术 直接 互 连 构成 的 多 处 理 机 系统 。 


相对 于 MESI 协议 ，MESIF 协议 引入 了 一 个 F (Forward， 转 发 ) 状态 ， 在 CC-NUMA 


架构 的 处 理 器 系统 


存 行 的 状态 为 F， 


中 ， 可 能 


竺 多 个 处 理 器 的 缓存 中 存在 相同 的 数据 
他 缓存 行 的 状态 都 为 S。 当 缓存 行 的 状态 位 为 了 


百 


只 有 一 个 组 


的 数据 与 存 


本， 其 中 
时 ， 绥 存 ! 


储 嚣 一致。 当 一 个 数据 请 求 方 读 取 这 个 数据 副本 时 , 只 有 状态 为 F 的 缓存 行 可 以 将 数据 副本 
提供 给 数据 请 求 方 ， 而 状态 为 $ 的 缓存 不 能 提供 该 数据 。 从 而 ，MESIF 协议 有 效 解 决 了 


CC-NUMA 处 理 器 结构 ! 
能 造成 的 网 络 拥塞 。 如 


医 | 


6 所 示 ， 


由 请 求 者 向 每 个 节点 发 送 数据 请 求 。 
在 CC-NUMA 处 理 器 系统 中 ， 如 果 状 态 为 F 的 数据 副本 被 其 他 处 理 器 找 贝 时 ，F 状态 
会 被 迁移 ， 新 建 的 数据 副本 的 状态 将 为 FE， 而 | 
缓存 行 被 改写 后 ， 


左 


中 ， 


由 于 所 有 状态 位 为 S 的 缓存 同时 提供 数据 副本 给 数据 请 求 方 而 可 
边 是 MESI 协议 ， 右 边 是 MESIF 协议 。 图 中 两 者 都 是 


点 虚线 表示 数据 请 求 ， 点 划 线 表示 啊 应 。 


UMA 处 


CC-N 


该 缓存 行 状态 更 新 为 M。 


MESIF 协议 


由 Intel Boxboro- 


EX 平台 (由 多 个 Nehalem-EX 处 


有 公开 其 详 旨 


理 器 组 成 ) 引入 ， 


目前 英特尔 没 


设计 文档 。MESIF 


协议 的 详细 
iid 


己 


三】 


实现 与 QPI 的 接口 
外 议 层 相关 。 如 前 文 所 


= 
到 


述 ，MESIF 协议 主要 解决 
CC-NUMA 架构 中 SMP” 子 系统 之 
间 的 缓存 同一 性 问题 。 而 在 独立 


的 SMP 处 理 器 ! 


， 一 般 依然 使 用 


传统 的 MESI 协议 。 


3.2.2 AMD HT 


日 的 数据 副本 的 状态 将 改 为 S。 当 状态 为 了 的 


里 器 系统 需要 首先 使 状态 为 $ 的 其 他 的 缓存 行 无 效 , 之 后 将 


(a) MESI 协 议 


(b) MESIF 协 议 


图 6，QPI 高 速 缓存 同一 性 协议 的 Source Snoop 模式 


HT 技术 的 全 称 为 HyperTransport， 是 AMD 公司 为 K8 平台 专门 设计 的 高 速 串 行 总 线 ， 


攻 | 


如 


向 


产业 界 ， 组 建 HT 技术 3 

基础 原理 方面 ，HT 技术 与 PCI-E (PCI Express) 非常 相似 ， 都 是 采用 点 对 点 的 单 双 工 传 
输 线 路 ， 引 入 抗 干扰 能 力 强 的 LVDS 信和 号 技术 ， 命 令 信号 、 地 址 信号 和 数据 信和 号 
据 路 径 ， 支 持 DDR 双 沿 凶 


出 ， AMD 同时 将 


7 所 示 叶 。 它 的 发 展 可 以 追溯 到 1999 年 ， 原 名 为 LDT (Lightning Data Transport)， 即 闪 
数据 传输 。2001 年 7 月 此 项 技术 正式 


其 更 名 为 HyperTransport， 并 推 


发 技术 等 。 


于 放 联 盟 HTC* 。 


I 
只 是 


作为 芯片 之 间 的 互 连 ， 互 连 对 象 可 以 是 处 理 


之 间 等 ， 属 于 计算 机 系统 的 内 部 总 线 。 


HT 技术 发 


展 历 程 


一 > 
= 


Sie, 


个 数 
两 者 用 途 不 同 ，PCI-E 是 系统 总 线 ， 而 HT 则 是 


主要 经 历 了 四 个 阶段 ， 第 一 代 HT 技术 1.0 和 1.1 版 本 分 别 在 2001 年 


器 与 处 理 器 、 处 理 器 与 芯片 组 、 芯 片 组 的 南北 桥 


和 2002 年 发 布 ，2004 年 2 月 ，HT 技术 联盟 正式 发 布 了 HT 2.0 版 本 ; 2006 年 ，AMD 正式 


发 布 HT 3.0 规范 ， 最 新 的 HT 3.1 规范 | 


4 cache-coherent non Uniform memory access， 


内 存 寻 址 ”) 


- 致 性 缓存 非 均匀 内 存 寻 址 〈 流 行 的 翻译 为 “连贯 


5 Symmetric MultiProcessing， 对 称 多 处 理 器 架构 
5 HyperTransport Technology Consortium 


AMD 组 建 的 超 传输 技术 联盟 CHTC) 在 2008 年 8 
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商用 多 核 处 理 器 中 的 存储 器 一 致 性 模型 与 高 速 


月 发 布 。 


HT 的 接口 包括 物理 层 、 数 
据 链 路 层 、 协 议 层 、 传 输 层 和 会 
话 层 ， 具 体 包 括 CC-HT (Cache 
Coherent HT) 技术 和 nC-HT 
(non-Coherent HT) 技术 中 。 如 
图 8 所 示 ， 以 使 用 HT 技术 的 
AMD Opteron Shanghai 处 理 器 为 
例 , 其 采用 的 是 CC-HT 3.0 技术 ， 
提供 最 高 41.6GB/s 系统 频 宽 20。 
多 Opteron 处理 器 也 组 成 一 个 
CC-NUMA 架构 ， 采 用 的 是 经 典 
的 MESI 协议 的 另 一 个 变种 一 一 
MOESI 协议 [1。 


相对 于 前 面 提 到 的 MESIF 
办 议 , MOESI 加 入 了 另 一 个 新 的 
绥 存 行 状态 O (Owned)， 并 同时 
重新 定义 了 $ 状态 ，M、 mm 
态 与 MESI 协议 中 的 各 状态 
0 
速 缓存 同一 性 模型 示意 图 。 其 中 ， 


以 读 取 数据 的 操作 ， 而 “Probe Write” 表 示 主 设备 从 其 他 处 理 
命中 )” 和 “Write Hit ( 写 命中 )” 


东 绥 存 同 - 


K8 
CPU 


-性 协议 


DDR 266/333 Mhz 


AGP Hyper Transport™ 
1x/2x/4x/8x 16x16 
i ALi 
文件 系统 3 
/ Hyper Transport™ 
/_/ Ultra DMA 66/100/133 0 8x8 Pp 
六 双 通 道 IDE 总 线 主 控 器 
A 双 通 道 业主 控 器 Be | 
外 存 设备 正己 键盘 
USB1.1/2.0 
通用 读 写 | ur Modem 
(GPIO) FIRX* ”局 
ALi 
2 M1563 册 | AC97 ) 
ee 声卡 
sel MIl | LPC 总 线 XN 三 
-一 


炎 finite impulse response, 有 限 长 度 冲击 响应 滤波 


图 7，AMD K8 平台 


“Probe Read” 表 示 主 设备 从 


1H “Write Miss (人 写 未 命 


加 


构 示 意图 
他 处 理 器 获取 数据 副本 
器 中 获取 数据 副本 以 写 入 
表示 主 设备 在 本 地 缓存 


中 )” 则 表示 未 


数据 的 操作 ;“Read Hit ( 读 
中 获得 了 数据 副本 , “Read Miss ( 读 未 命中 )” 和 不 
能 获取 副本 ;“Probe Read Hit” 和 “Probe W 


rite Hit” 表 示 主 设备 在 


其 他 处 理 器 的 


缓存 中 获得 了 数据 副本 。 前 面 提 到 的 O 状态 只 有 在 本 地 或 远程 读 
M 状态 转化 这 两 种 情形 


持 ， 或 者 远程 读 命 中 时 ， 由 


命中 时 ， 


下 形成 。 


O 状态 自身 保 


“一 级 缓存 “二 级 缓存 
图 8.，AMD Opteron Shanghai 处 弄 


， 状 态 为 O 时 ， 


MOESI 模型 中 


器 结构 图 
表示 当前 缓存 行 中 包含 的 数据 是 当前 处 到 
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EE 家 系统 最 新 的 
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数据 拷贝 ， 而 且 在 其 他 处 理 器 中 一 定 具 有 该 缓存 行 的 副本 ， 其 他 处 理 器 的 缓存 行 状态 为 5。 
如 果 主 存 的 数据 在 多 个 处 理 器 的 缓存 中 都 具备 副本 时 , 有 且 仅 有 一 个 处 理 器 的 缓存 行 状态 为 
O， 其 他 处 理 器 的 缓存 行 状态 只 能 为 S。 与 MESI 协议 中 的 $ 状态 不 同 ， 状 态 为 O 的 缓存 行 
中 的 数据 与 主 存 中 的 数据 并 不 一 致 。 

MOESI 模型 中 的 S 位 状态 的 定义 相对 于 MESI 发 生 了 一 些 细微 变化 。 当 一 个 缓存 行 状 
态 为 S 时 ,其 包含 的 数据 并 不 一 定 与 主 存 一 致 。 如 果 在 其 他 处 理 器 的 缓存 中 不 存在 状态 为 O 
的 副本 时 ， 该 缓存 行 中 的 数据 与 主 存 一 致 ， 如 果 在 其 他 处 理 器 的 缓存 中 存在 状态 为 O 的 如 
本 ， 此 缓存 行 中 的 数据 与 主 存 不 一 致 。 

在 某 些 场合 , 使 用 MOESI 协议 将 极 大 地 提高 缓存 的 利用 率 , 因为 该 协议 引入 了 O 状态 ， 
从 而 在 发 送 Read Hit 的 情况 时 ， 不 必 将 状态 为 M 的 缓存 回 写 到 主 存 ， 而 是 直接 从 一 个 处 
理 器 的 缓存 将 数据 传递 到 另 一 个 处 理 器 。 目 前 MOESI 协议 在 实际 应 用 中 得 到 了 广泛 的 应 用 ， 
如 DEC Alpha，AMD x86，RMI RAZA 等 系列 处 理 器 ，ARM Cortex A5 和 SUN UltraSPARC 
处 理 器 也 是 用 了 这 种 协议 。MOESI 协议 不 仅 可 用 于 CC-NUMA 处 理 器 架构 ， 也 可 以 用 于 优 
化 SMP 系统 的 绥 存 同一 性 。 


ds 


Probe Write 命中 


“INVD 和 WBINVD 表 示 无 效 及 回 写 无 效 的 高 速 缓存 行 状态 


图 9， MOESI 协议 状态 转化 图 

3.3 几 种 高 速 缓存 同一 性 协议 的 对 比 

表 5 对 MESI、MOESI 和 MESIF 集中 多 处 理 器 系统 的 高 速 缓存 同一 性 协议 各 状态 及 暴 
相互 转化 进行 了 比较 。 其 中 , 干净 副本 指 未 经 修改 的 副本 ， 脏 副本 即 一 个 内 容 被 修改 了 的 主 
存 数据 副本 ， 需 要 更 新 到 主 存 里 面 去 。 

AMD 的 基于 CC-HT 技术 的 Opteron 处 理 器 使 用 的 是 MOSEI 协议 ， 英 特 尔 的 Xeon 处 
理 器 使 用 的 是 MESI 协议 ,而 其 之 后 推出 的 Nehalem 处 理 器 使 用 的 是 基于 QPI 技术 的 MESIF 
协议 。 

MESI 协议 作为 一 种 经 典 的 “ 写 无 效 ” 式 的 高 速 缓存 同一 性 协议 ， 也 是 由 早期 的 MSI 
协议 发 展 而 来 ， 因 为 逻辑 简单 ， 总 线 传 输 量 较 少 ， 被 广泛 使 用 。 但 主 存 中 的 数据 若 在 多 个 组 
存 中 存在 副本 ， 当 请 求 者 发 出 对 该 数据 的 请 求 时 ， 将 会 引起 多 个 含有 其 副本 的 处 理 器 响应 ， 
在 系统 规模 较 大 时 ， 会 大 大 增加 系统 开销 。 

干净 副本 的 共享 较 易 处 理 ， 关键 是 对 脏 副本 的 处 理 。 显 然 ， 多 个 副本 中 同一 时 间 内 只 能 
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有 一 个 可 以 被 写 入 主 存 。MESIF 协议 中 ， 只 具有 一 个 副本 的 王 状态 在 被 写 入 的 时 候 只 需要 
简单 地 转化 为 M 状态 ， 如 存在 下 状态 副本 ， 其 被 写 入 时 则 会 导致 其 所 有 的 S 状态 副本 都 被 
置 为 无 效 ; 由 于 S 状态 副本 不 允许 转发 ， 也 不 允许 被 写 入 ， 这些 副本 所 在 的 处 理 器 要 再 次 使 
用 这 个 副本 时 ， 需 要 再 次 向 原始 F 状态 副本 请 求 , F 状态 副本 现在 已 经 转化 为 M 状态 副本 ， 
被 请 求 状态 下 M 状态 副本 会 写 入 主 存 并 重新 转化 为 F 状态 , 不 被 请 求 时 则 可 以 保持 在 M 状 
态 ， 并 可 以 不 必 实 时 写 入 主 存 以 降低 对 主 存 带 宽 的 占用 。 另 一 方面 ， 由 于 MESIF 协议 只 多 
许多 个 共享 副本 当中 的 状态 副本 被 号 入 主 存 ， 在 多 个 处 理 器 均 需 要 写 入 一 个 缓存 行 的 时 
候 , 会 出 现 F 状态 副本 在 各 个 处 理 器 之 间 不 停 传输 的 “弹跳 ”现象 ， 和 令 牌 环 相似 。 这 样 会 
降低 系统 性 能 ， 特 别 是 下 状态 副本 不 在 其 所 在 的 原始 主 存 空间 的 时 候 。 

Opteron 处 理 器 使 用 的 MOSEI 协议 不 需要 M 状态 副本 写 入 主 存 就 可 以 进行 共享 ， 此 时 
这 时 M 状态 会 转变 为 上 状态， 共享 后 的 脏 副 本 被 标记 为 $ 状态 。 这 避免 了 一 次 写 入 主 存 的 
操作 ， 节 约 了 一 些 系统 开销 ;， 当 再 次 写 入 O 状态 副本 时 ， 其 他 的 状态 S 副本 同样 会 被 设置 
为 无 效 .MOSEI 协 议 也 上 只 允许 多 个 共享 副本 当中 的 O 状态 副本 被 写 入 ,同样 也 存在 着 MESIF 
协议 中 的 “弹跳 ”现象 。 
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表 5. MESI、MOESI 和 MESIF 协议 比较 

高 速 缓存 同一 性 协议 

可 安静 地 转 
写 说 

可 号 转发 作成 的 状态 | 


MESI over FSB(Intel Xeon 处 理 器 ) 

M(Modified) | 是 | 是 | 大 被 请 求 时 需 先 写 入 主 存 

E(Exclusive) 和 是 M、S、I 被 写 入 时 转化 为 M 状态 
S(Shared) I 可 以 提供 数据 
I(Invalid) - - 不 能 读 取 

MOESI over HT(AMD Opteron 处 理 器 ) 


被 请 求 时 不 需要 写 入 主 存 ， 
而 仅仅 转化 为 O 状态 
主 副 本 转换 为 其 他 状态 
需要 先 写 入 主 存 
E(Exclusive) 和 是 | Sa 被 号 入 时 转化 为 M 状态 
可 以 同时 为 干净 或 者 脏 ， 
主 副本 被 写 入 时 转 为 无 效 

I(Invalid) - - - - 不 能 读 取 

SIF over QPI (Intel Nehalem 处 理 器 ) 

M(Modified) ] 是 | 是 | ; 被 请 求 时 需要 先 写 入 主 存 
E(Exclusive) 争 是 | 是 | 是 |M、S、I、F 被 号 入 时 转化 为 M 状态 
S(Shared) 主 副 本 被 写 入 时 转 为 无 效 
I(Invalid) - - - 不 能 读 取 

主 副本 被 写 入 时 转换 为 M 状态 ， 
并 使 其 他 S 副本 无 效 


MI(Modified) 1 是 | 是 | 呈 O 


O(Owner) 


S(Shared) 


F(Forward) 


To 
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存储 器 一 致 性 和 高 速 缓存 同一 性 问题 一 直 是 共享 存储 的 多 处 理 机 系统 中 的 技术 难点 。 特 


别 是 在 当前 , 片上 多 核 技术 已 成 为 处 理 器 设计 主流 的 背景 下 ,这 一 问题 越 来 越 多 地 受到 各 大 


处 至 


器 设计 生产 商 的 关注 和 重视 。 本 文 主要 对 存储 器 一 致 性 和 高 速 缓存 同一 性 问题 进行 了 简 


要 描述 ,同时 针对 诸多 商用 处 理 器 中 相关 技术 的 近期 发 展 状况 进行 了 分 类 介绍 ,并 针对 其 中 
的 其 体 方案 进行 了 对 比分 析 。 作 为 片上 多 核 设 计 中 的 重要 一 环 , 存储 器 一 致 性 和 高 速 缓存 同 
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生 技术 的 发 展 需 要 学 术 界 和 工业 界 的 共同 促进 。 
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